Introducción al Aprendizaje por Refuerzo Profundo (DRL)

El Aprendizaje por Refuerzo Profundo (DRL) combina las capacidades de representación de alta dimensión de Redes Neuronales Profundas con el marco de control óptimo de Aprendizaje por Refuerzo. A diferencia del aprendizaje supervisado o no supervisado, los agentes de DRL agentes aprenden mediante interacción de prueba y error dentro de un entorno dinámico entorno, realizando decisiones secuenciales decisiones secuenciales sin etiquetas inmediatas ni explícitas. Esta integración permite que los agentes manejen entradas complejas y crudas (como datos de píxeles) directamente.

1. El paradigma de aprendizaje de DRL

El agente de RL opera en un ciclo continuo: observando el entorno Estado ($S_t$), realizando una Acción ($A_t$), y recibiendo una señal escalar potencialmente escasa o tardía Recompensa ($R_{t+1}$). El principal desafío es el problema de asignación de crédito: determinar qué acciones pasadas fueron responsables de una señal de recompensa futura.

2. El objetivo de optimización

El objetivo final es descubrir una estrategia óptima, o política ($\pi^*$), que es una asignación desde estados hasta acciones, que maximiza el Retorno acumulado descuento esperado ($G_t$). El factor de descuento ($\gamma \in [0, 1]$) es matemáticamente crucial, definiendo cuánto valoramos las recompensas inmediatas frente a las recompensas esperadas muy lejos en el futuro.

$$G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$$

The Fundamental RL Cycle

An illustration of the Markov Decision Process (MDP) framework. The Agent's policy dictates the action ($A_t$) based on the current state ($S_t$), leading the Environment to transition to a new state ($S_{t+1}$) and provide a reward ($R_{t+1}$).

The Reinforcement Learning Cycle: Agent, Environment, State, Action, Reward

Question 1

How does the DRL agent receive feedback from the environment?

Explicit labels/targets

Backpropagation through time

Scalar reward signal

Labeled demonstration data

Question 2

What does the policy ($\pi$) mathematically represent?

The predicted total reward

A distribution over actions given a state

The probability of transitioning to a new state

The error between predicted and actual returns

Challenge: The Discount Factor

Analyzing the Temporal Horizon.

Consider two scenarios:
1. $\gamma = 0$
2. $\gamma \approx 1$

Describe the agent's behavioral preference in each case regarding the timeline of rewards.

Step 1

How does the choice of $\gamma$ affect the policy's horizon?

Solution:
If $\gamma = 0$, the agent is myopic (shortsighted), focusing only on the immediate reward $R_{t+1}$. If $\gamma \approx 1$, the agent is far-sighted, equally weighting immediate and distant future rewards, leading to planning over a very long horizon.